% !TEX root = ../thesis.tex

%TC:ignore
\setcounter{chapter}{-1}
\chapter{引言}

%\input zzsetpage
\section{主要内容 \& 主要参考资料}
\begin{blist}
	\item 测度论
	\item 随机过程论
\end{blist}

\begin{blist}\addtolength{\itemsep}{-0.5ex}
	\item[1.] \href{https://services.math.duke.edu/~rtd/PTE/PTE5_011119.pdf}{R.Durrett, "Probability: Theory and Examples", Cambridge Univerisity Press, 2019.}
	\item[2.] 程士宏, "测度论与概率论基础", 北京: 北京大学出版社, 2004.
	\item[3.] 严加安, "测度论讲义"(第二版), 北京: 科学出版社, 2005.
	\item[4.] \href{https://www.springer.com/cn/book/9789811017896}{Terence Tao, "Analysis I", Springer-Verlag, New York, 2016.}
\end{blist}

\section{概率论评述}

\textbf{起源}

概率论这门学科可以说起源于赌博。尽管早在15世纪与16世纪意大利的一些数学家（如Cardano，Pacioli，Tartaglia等）已经对一些靠运气的游戏中的特定概率进行了计算，但是，概率论作为一门学科起源于17世纪。
1654年，一个名叫A.G.C. de Méré的法国贵族对赌博以及赌博中的问题很感兴趣，但他对一些问题感到很困惑，为了解决自己的困惑，他向数学家B.Pascal（1623-1662）求助。为了解答de Méré提出的问题，Pascal与法国数学家P.Fermat（1601-1655）进行了通信讨论。1655年，荷兰数学家C.Huygens(1629-1695)首次访问巴黎，期间他学习了Pascal与Fermat关于概率论的工作。Huygens是一个名声和Newton相当的大科学家. 人们熟知他的贡献之一是物理中的单摆公式. 他在概率论的早期发展历史上也占有重要的地位. 1657年，当他回到荷兰后，他写了一本小册子，名叫《De Ratiociniis in Ludo Aleae》（可译为《机遇的规律》），这是关于概率论的第一本书。在这部著作中, 他首先引进了"期望"这个术语.在此,"数学期望"这个基本概念以及关于概率的可加性、可乘性已经建立。他基于这些术语解决了一些当时感兴趣的博弈问题. 他在这部著作中提出了14条命题, 第一条命题是:

如果某人在赌博中以一半的可能性赢$a$元,以一半的可能性输$b$元, 则他的期望是\begin{equation}
\frac{a-b}{2} (\text{元}).
\end{equation}

\textbf{18-19世纪}

概率论在18世纪得到了快速发展，这个期间的主要贡献者是J.Bernoulli(1654-1705)和A. de Moivre（1667-1754）。在19世纪，概率论的早期理论得到了进一步的发展与推广，这个期间的主要贡献者是P.S.M. Laplace（1749-1827），S.D. Poisson（1781-1840），C.F. Guass（1777-1855），P.L. Чебышёв(切比雪夫)（1821-1894）， 马尔可夫(A.A.Марков)（1856-1922）与李雅普诺夫(A.M.Ляпуно́в)（1857-1918）。这个时期的研究主要围绕着概率极限定理展开。

Jacob Bernoulli是一位瑞士数学家，是Bernoulli家族的第一位数学家。 1705年, 他在瑞士Basel去世. 8年后,也就是1713年,他在概率论领域的代表作《Ars Conjectandi》一书正式出版（可译为《猜测的艺术》）.他的这本书正式出版标志着概率论学科的开始. 该书仅包含一个数学定理,即著名的Bernoulli大数定律,这是概率论的第一个极限定理.

Bernoulli大数定律:假设$\{\xi_n\}$为一个独立同分布的随机变量序列,$P(\xi_n = 1) = p, P(\xi_n = 0) = 1-p$, 其中$0<p<1$. 令$S_n = \sum_{k=1}^{n}\xi_k$, 那么
\begin{equation}
P\left(\omega:\left|\frac{S_n(\omega)}{n}-p\right|>\varepsilon \right)\to 0,~~n\to\infty.
\end{equation}
17世纪下半叶, Newton刚发明微积分不久, 人们对计算各种数列的极限有着相当大的兴趣, 并发展了不少有效的方法和技巧. 但是, "$\varepsilon-N$"语言并不能很好地解释"随机试验中频率是否收敛到概率"这样的问题.正是Bernoulli大数律首次给出了"频率收敛到概率"的数学解释和严格证明.

Bernoulli大数律内涵丰富,成为了后人发展概率论的源泉. (0.2)式充分肯定了经验观测可以揭示随机现象规律的基本思想; 提出了随机变量序列依概率收敛到常数(甚至收敛到随机变量)的基本概念. 受此启发,人们自然会问:如果考虑一般的随便变量的平均值, 情况会如何? 特别,假设$\{\xi_n\}$为一个独立同分布的随机变量序列,$\mathrm{E}\xi_n = \mu$.令$S_n = \sum_{k=1}^{n}\xi_k$, 那么\begin{equation}
P\left(\omega:\left|\frac{S_n(\omega)}{n}-p\right|>\varepsilon \right)\to 0,~~n\to\infty
\end{equation}成立么?

用观测平均值去计算真值的思想很早以前就已出现,并一直用于日常生活和社会实践,关键在于能否给出一个严格的数学证明吗?

回顾(0.2)式的证明,Bernoulli二项分布起着关键作用.事实上,$S_n\sim \mathcal{B}(n,p)$.因此
\begin{equation}
P\left(\omega:\left|\frac{S_n(\omega)}{n}-p\right|>\varepsilon \right)	= \sum_{k:|k-np|>n\varepsilon}\binom{n}{k}p^k(1-p)^{n-k}.	
\end{equation}

利用杨辉三角或者Pascal二项组合式,容易得到\begin{equation}
\sum_{k=0}^n\binom{n}{k}p^k(1-p)^{n-k} = 1.	
\end{equation}

但是,(0.4)的困难在于计算部分和,而不是对所有$k=0,1,\cdots,n$求和. 为此, Bernoulli利用了$n!$的渐进计算公式. 显然,这样一个计算技巧对(0.4)不合适, 因为$\xi_n$的分布并不知道. 事实上,即使$\xi_n$只取三个值, Bernoulli的计算方法仍然显得笨拙而不可行!

为了证明(0.4), 需要用到下面的 Чебышёв(切比雪夫)不等式:假设$X$是随机变量, $\mathrm{E}X = \mu,\mathrm{var}(X) = \sigma^2$,那么对任意$x>0$
\begin{equation}
P(|X-\mathrm{E}X|\geqslant x)\leqslant \frac{\mathrm{var}(X)}{x^2}.
\end{equation}

在当代概率论中，与Poisson相关的有Poisson分布、Poisson过程。Guass创立了误差理论，特别地，创立了最小二乘的基本方法。切比雪夫(Чебышёв)，马尔可夫(Марков)与李雅普诺夫(Ляпуно́в)在研究独立但不同分布的随机变量和的极限定理方面发展了有效的方法。
Чебышёв(切比雪夫)被看作俄国现代数学之父.上述切比雪夫(Чебышёв)不等式在概率论学科发展中起着举足轻重的作用.事实上,概率自16世纪由赌博游戏引入以来,到19世纪末,历经300年.尽管由不少的大数学家热衷于概率的研究并积极倡导和应用,但相对于这一时期的分析、代数、几何等其它数学分支而言,概率论的发展可以说是十分缓慢, 并且, 在总体上来说, 概率论学科还停留在一些具体事件的概率计算上.在切比雪夫(Чебышёв)之前，概率论的主要兴趣在于对随机试验的概率进行计算。而切比雪夫(Чебышёв)是第一个清晰认识并充分利用随机变量及其数学期望的人。切比雪夫(Чебышёв)思想的主要倡导者是他忠诚的学生马尔可夫(Марков)，他将老师的结果完整清晰地展现出来。马尔可夫(Марков)自己对概率论的重大贡献之一是创立了概率论的一个分支：研究相依随机变量的理论，成为"马尔可夫(Марков)过程".可以说, 切比雪夫(Чебышёв)不等式可以看作一个时代的转折点.


作为应用,可以用(0.6)证明(0.3):
\begin{equation}
P\left(\omega:\left|\frac{S_n(\omega)}{n}-p\right|>\varepsilon \right)
\leqslant \frac{\mathrm{var}(S_n/n)}{\varepsilon^2} = \frac{\mathrm{var}(S_n)}{n^2\varepsilon^2}.
\end{equation}
既然$\varepsilon>0$是任意给定的正数,那么只要验证$\mathrm{var}(S_n) = o(n^2)$就够了.在二项分布情形,
\begin{equation}
\mathrm{var}(S_n) = \sum_{k=0}^n(k-np)^2\binom{n}{k}p^k(1-p)^{n-k} = np(1-p).
\end{equation}
注意,正如(0.7)一样,(0.8)的计算比(0.4)要容易得多.更为重要的是,上述讨论不局限于Bernoulli二项分布,而适用于非常广泛的随机变量序列.以下是切比雪夫(Чебышёв)大数定律:
假设$\{\xi_n\}$为一个随机变量序列,$\mathrm{E}\xi_n = \mu_n, \mathrm{var}(\xi_n) = \sigma^2$. 如果\begin{equation}
\mathrm{var}(S_n) = o(n^2),
\end{equation}
那么\begin{equation}
P\left(\omega:\left|\frac{S_n(\omega)}{n}-\frac{1}{n}\sum_{k=1}^n\mu_k\right|>\varepsilon \right)\to 0,~~n\to\infty.
\end{equation}
该定理的条件(17)包含的范围非常广泛. 如独立同分布且方差有限; 独立不同分布且方差有界; 不独立但互不相关且方差有界; 其它相依情形.后几种情形更为常见, 在实际观测时, 并不能苛求试验环境, 数据之间不可避免地存在一定联系, 并且不能保证同分布.

切比雪夫(Чебышёв)大数律显然是Bernoulli大数律的极大推广.但是条件(17)对于一个大数律来说无疑有点强. 辛钦(Хи́нчин)改进了切比雪夫(Чебышёв)大数律, 在独立同分布且数学期望存在有限的情况下,证明了(10).当然,此时无法直接使用切比雪夫(Чебышёв)不等式(13), 截尾方法应运而生.

Bernoulli大数律告诉人们: 给定任意精度, 只要试验重复足够多次, 频率就有很大可能接近概率真值, 以致误差在给定精度内. 人们自然会问, 试验次数究竟多大合适? 该如何确定呢? 当然, 给定精度$\varepsilon>0$, 无论$n$多么大, 都无法保证独立重复试验后$|S_n/n-p|\leqslant\varepsilon$. $n$的大小取决于事先给定的可靠度(置信度), 关键在于如何由精度和可靠度来确定$n$. 即, 给定$\varepsilon>0,\eta<1$, 如何有效地表达(近似)\begin{equation}
P\left( \omega:\left| \frac{S_n(\omega)}{n}-p \right|>\varepsilon \right) = \eta.
\end{equation}

de Moivre和Laplace考虑了上面的问题, 并对独立二点分布的随机变量序列证明了以下中心极限定理: 对任意实数$a<b$,\begin{equation}
P\left( \omega:a<\frac{S_n(\omega)-np}{\sqrt{np(1-p)}} \leqslant b  \right) \to \Phi(b)-\Phi(a).
\end{equation}
直接应用该结果, (18)可写成\begin{equation}
P\left( \omega:\left| \frac{S_n(\omega)}{n}-p \right|>\varepsilon \right) \approxeq 2\left( 1-\Phi\left(\varepsilon\sqrt{\frac{n}{p(1-p)}}\right) \right)=: \eta.
\end{equation}
由此可计算$n$的大小(依赖于$\varepsilon,n,p$).

de Moivre是一位法国数学家，但是大部分时间他住在英国. de Moivre在前人, 特别是Bernoulli家族和Huygens的基础上, 研究和发展概率论,可以说, 他开创了概率论的现代方法:1711年出版了《The Doctrine of Chances》.在此书中，统计独立性的定义首次出现。该书在1738年与1756年出了扩版，生日问题出现在1738年的版本中，赌徒破产模型出现在1756年的版本中, 并在赌徒中很有影响和地位.
1730年，de Moivre的另一本专著《Miscellanea Analytica Supplementum》（可译为《解析方法》）正式出版。其中，关于对称Bernoulli试验的中心极限定理首次提出并得到证明。
他首先考虑了$p=1/2$情形,并和他的好朋友Stirling同时发现了下列公式\begin{equation}
n!\sim \sqrt{2\pi n}n^ne^{-n}.
\end{equation}
通常称(21)为Stirling公式, 实际上应该为de Moivre-Stirling公式.

差不多40年后, Laplace考虑了$p\neq 1/2$情形. 应该说, Laplace对概率统计和天体力学的贡献巨大. 他在1799-1825年间出版了五卷本《Celestial Mechanics》.
1812年，Laplace的伟大专著《Théorie Analytique des Probabilitiìés》(可译为《概率论的解析理论》)诞生，其中，他阐述了他自己及前辈在概率论方面的结果。特别地，他将de Moivre的定理推广到Bernoulli试验非对称情形。Laplace最重要的工作是将概率方法应用到观测误差，在很一般的条件下证明了观测误差的分布一定是渐进正态的。直到今天, 人们在概率极限理论方面的研究还受到Laplace的影响.

正如Bernoulli大数定律一样, de Moivre-Laplace中心极限定理对概率论学科的发展影响深远,受(19)启发, 人们提出了随机变量序列依分布收敛的概念, 并给出了一般形式的中心极限定理:假设$\xi_1,\xi_2,\cdots$是一独立同分布的随机序列,$\mathrm{E}\xi_n = \mu,\mathrm{var}(\xi_n) = \sigma^2$, 那么
\begin{equation}
P\left( \omega:\frac{S_n(\omega)-n\mu}{\sqrt{n}\sigma}\leqslant x \right) \to \Phi(x),~~~n\to\infty.
\end{equation}
但是, 如何证明呢?我们需要找到一个有效的工具和判别准则. 随着调和分析的发展, 人们发现Fourier变换是研究分布函数的一个有效工具. 在概率论学科中, 大家称分布函数的Fourier变换为特征函数. 为证明概率论的中心极限定理，切比雪夫(Чебышёв)和马尔可夫(Марков)利用的是矩方法，而李雅普诺夫(Ляпуно́в)利用了特征函数的方法。极限定理的后续发展表明特征函数方法是一种强大的解析工具。

假设$X$是个随机变量, 定义$\phi(t) = \mathrm{E}\mathrm{e}^{itX}$为其特征函数(c.f.). 任意的随机变量都存在特征函数, 并且它具有非常良好的分析性质、运算性质和唯一性. 随着特征函数的引入, 20世纪20-30年代概率论的发展进入了一段黄金时期. 法国数学家Lévy建立了连续性定理:$X_n\stackrel{d}{\rightarrow}X$当且仅当$\phi_n(t)\to\phi(t)$. 其中, $\phi_n$和$\phi$分别为$X_n$和$X$的c.f.. 由此, 可以证明(22). 事实上, 令$X_n = \frac{S_n-n\mu}{\sqrt{n}\sigma}$, 那么
\begin{equation}
\mathrm{E}\mathrm{e}^{itX_n} =\prod_{k=1}^n\mathrm{E}\mathrm{e}^{it\frac{\xi_k-\mu}{\sqrt{n}\sigma}}
=\left( 1-\frac{t^2}{2n}+o(1/n) \right)^n
\to \mathrm{e}^{-t^2/2}.
\end{equation}
所以,(22)成立. 这被称为Lévy-Lindeberg中心极限定理, 这个证明已经写入许多的本科生概率论教材, 具有微积分基础的同学们都能掌握.

Lindeberg和Feller研究了独立不同分布情形, 他们再次运用了特征函数的方法证明了下列定理: 假设$\{\xi_n;n\geqslant 1\}$为一独立的随机序列, 相应的分布函数分别为$F_n$, 并且$\mathrm{E}\xi_n = \mu_n,~\mathrm{var}(\xi_n) = \sigma^2_n<\infty$. 若$B_n^2 = \sum_{k=1}^{n}\sigma_k^2\to\infty$. 那么
\begin{equation}
\max_{1\leqslant k\leqslant n} \frac{\sigma^2}{B_n^2}\to 0
\end{equation}
和\begin{equation}
\frac{1}{B_n}\sum_{k=1}^n(\xi_k-\mu_k)\stackrel{d}{\rightarrow}\mathcal{N}(0,1)
\end{equation}
成立当且仅当对任意$\varepsilon>0$,
\begin{equation}
\frac{1}{B_n^2}\sum_{k=1}^n\int_{\abs{x-\mu_k}>\varepsilon B_n}(x-\mu_k)^2\mathrm{d}F_k(x)\to 0.
\end{equation}
称(24)为Feller条件, (26)为Lindeberg条件.  当随机变量同分布且方差都存在时, 这些条件都满足. 当随机变量不同分布时, (24)意味着各个随机变量$\xi_k/B_n$"一致地无穷小, 没有一个起显著作用". 正如切比雪夫(Чебышёв)大数律一样, Lindeberg-Feller定理应用非常广泛, 譬如说各类测量误差可以近似地用正态分布描述.

中心极限定理不仅适用于独立随机变量的部分和, 而且可以推广到许多相依随机变量序列情形, 如鞅差序列,马尔可夫(Марков)链, 各类混合序列, 正、负相依(伴)序列等, 从而发展了许多新的方法, 如20世纪70年代提出的Stein方法.

除Bernoulli大数律和de Moivre-Laplace中心极限定理外, 另一个经典极限定理是Poisson极限定理. 它讨论的仍然是二项分布. 假设$\{S_n;n\geqslant 1\}$为一列二项分布随机变量, $S_n\sim\mathcal{B}(n,p_n)$. 如果$np_n\to \lambda>0$, 那么对每个$k=0,1,2,\cdots$
\begin{equation}
\lim_{n\to\infty}P(\omega:S_n(\omega) = k) = \frac{\lambda^k}{k!}\mathrm{e}^{-\lambda}.
\end{equation}
注意, $\sum_{k=0}^{+\infty}\frac{\lambda^k}{k!}\mathrm{e}^{-\lambda} = 1$. 因此, 可以构造一个随机变量$X$, 具有分布\begin{equation}
P(\omega:X(\omega) = k) = \frac{\lambda^k}{k!}\mathrm{e}^{-\lambda},~k=0,1,2,\cdots,
\end{equation}
称$X$是服从Poisson分布的随机变量, 记作$X\sim\mathcal{P}(\lambda)$. (27)可写作
\begin{equation}
S_n\stackrel{d}{\rightarrow}\mathcal{P}(\lambda).
\end{equation}
(29)的证明并不难, 利用Stirling公式(21)直接计算或利用Lévy连续性定理均可.

以上三大极限定理讨论的都是Bernoulli二项分布的随机变量.

\textbf{20世纪}

20世纪可称为概率论发展的现代时期，本时期开始于概率论的公理化。在这个方向上的早期贡献者有S.N. Berstein（1880-1968）， R. von Mises（1883-1953）与E.Borel（1871-1956）。1933年，俄罗斯著名数学家柯尔莫哥洛夫(A.H.Колмого́ров)出版了他的伟大专著《Foundations of the Theory of Probability》。书中，他为概率论建立了目前广泛采纳的公理化体系。这一时期，中国数学家、概率论先驱许先生（Paolu Hsu，1910-1970）在内曼-皮尔逊理论、参数估计理论、多元分析、极限理论等方面取得卓越成就，许宝騄先生是多元统计分析学科的开拓者之一。

20世纪20-30年代, 人们试图寻求一种普适极限定理, 来描述随机现象的内在规律. 假设$\{\xi_{n,k};1\leqslant k\leqslant k_n,n\geqslant 1 \}$为行内独立的三角组列, 令
\begin{equation}
S_n = \sum_{k=1}^{k_n}\xi_{n,k}
\end{equation}
表示组列的第$n$行随机变量的和. 如果对任意$\varepsilon>0$,
\begin{equation}
\max_{1\leqslant k\leqslant k_n}P(\omega:\abs{\xi_{n,k}(\omega)}>\varepsilon)\to 0~(n\to\infty),
\end{equation}
那么称$\{\xi_{n,k}\}$满足无穷小条件. 该条件意味着每行内的随机变量"一致地小, 没有一个起显著作用". 如果$S_n$解释为测量误差, 那么$\{\xi_{n,k};1\leqslant k\leqslant k_n\}$可看作是造成误差的诸多细微的因素, 每一个因素都会导致测量误差, 但没有系统误差. 人们自然会问: 用什么描述$S_n$的分布比较合适? 事实上, 当误差的因素可以细分, 并且满足无穷小条件(31)时, 误差$S_n$的分布是无穷可分分布.

假设$X$是随机变量, $F(x)$是它的分布函数, $\phi(t)$是它的特征函数. 如果对任意$n\geqslant 1$, 存在随机变量$\xi_{n,1},\cdots,\xi_{n,n}$使得
\begin{equation}
X\triangleq \sum_{k = 1}^{n}\xi_{n,k},
\end{equation}
那么称$X$为无穷可分随机变量. 等价地, 可以用分布函数或特征函数来描述. 无穷可分分布族包括退化单点分布、正态分布、Poisson分布以及它们的混合分布; 但不包括有界非退化随机变量. 一个分布可以是无穷可分分布当且仅当它的特征函数$\phi(t)$可以写成下列Lévy-Хи́нчин表示:
\begin{equation}
\phi(t)= \exp\left(\mathrm{i}\gamma t-\frac{\sigma^2t^2}{2}+\int_{-\infty}^{\infty}\left(\mathrm{e}^{\mathrm{i}tx}-1-\frac{\mathrm{i}tx}{1+x^2}\right)\frac{1+x^2}{x^2}\mathrm{d}G(x) \right),
\end{equation}
其中,$\gamma$为常数, 函数$G(x)$满足单调不减右连续左极限存在, $G(-\infty) = 0$并且$G(\infty)<\infty$.

普适极限定理断言: 如果无穷小三角组列$\{\xi_{n,k}\}$的行和$S_n$依分布收敛到某个随机变量$X$, 那么$X$一定是无穷可分分布的随机变量. 进而, 可以给出收敛到某给定的无穷可分分布的充要条件. 事实上, 三大经典极限定理都是普适极限定理的特殊情况. 可以说, 普适极限定理是20世纪20-30年代的杰作, 它将特征函数方法运用到极致. 然而, 由于理论过于一般化, 证明相当繁琐, 初学者不易掌握.

几乎处处收敛. 假设$X,X_n,n\geqslant 1$为一列定义在概率空间$(\Omega,\mathscr{A},P)$上的随机变量, 如果存在一个$\Omega_0$, 使得$P(\Omega_0) = 1$, 并且对每一个$\omega\in\Omega_0$都有
\begin{equation}
\lim_{n\to\infty}X_n(\omega) = X(\omega),
\end{equation}
则称$X_n$几乎处处收敛到$X$, 记作$X_n\to X,\mathrm{a.s.}$. 就概念本身而言, 几乎处处收敛是容易理解的. 在随机变量序列的各种各样收敛性中, 几乎必然收敛是最强的收敛性之一. 如何判别某随机变量序列几乎处处收敛呢? 不满看出$X_n\to X,\mathrm{a.s.}$当且仅当对任意$\varepsilon>0$,
\begin{equation}
P(\omega:\abs{X_n(\omega)-X(\omega)}>\varepsilon,\mathrm{i.o.}) = 0.
\end{equation}
这等价于\begin{equation}
\lim_{n\to\infty}P(\omega:\sup_{k\geqslant n}\abs{X_k(\omega)-X(\omega)}>\varepsilon) = 0.
\end{equation}
显然, 一个充分条件为\begin{equation}
\sum_{n = 1}^{+\infty}P(\omega:\abs{X_n(\omega)-X(\omega)}>\varepsilon)<\infty.
\end{equation}
更一般地, 有下列Borel-Cantelli引理: 假设$\{A_n;n\geqslant 1\}$是一列事件, 如果$\sum_{n =1}^{+\infty}P(A_n)<\infty$, 那么$P(A_n,\mathrm{i.o.}) = 0$. 当然, 级数收敛这一条件要强得多. 不过, 如果$\{A_n\}$是一列两两独立的事件, 并且$P(A_n,\mathrm{i.o.}) = 0$, 那么$\sum_{n = 1}^{+\infty}P(A_n)<\infty$.

Borel强大数律:假设$\{\xi_n,n\geqslant 1\}$是一列独立同分布的随机变量, $P(\xi_n = 1) = p,P(\xi_n = 0) =1-p$. 令$S_n = \sum_{k=1}^n\xi_k$, 那么\begin{equation}
\lim_{n\to\infty}\frac{S_n}{n} = p,\mathrm{a.s.}.
\end{equation}
显然, Borel强大数律更为深刻地解释了"频率收敛到概率的基本事实". 值得强调, 从Bernoulli大叔律到Borel大数律历经两百年, 无数人为此进步付出了毕生精力. 证明是Borel-Cantelli引理的简单应用. 事实上,
\begin{equation}
\sum_{n = 1}^{+\infty}P(\omega:\abs{\frac{S_n(\omega)}{n}-p}>\varepsilon)\leqslant \sum_{n = 1}^{+\infty}\frac{\mathrm{E}\abs{S_n-np}^4}{n^4\varepsilon^4}<\infty.
\end{equation}
如果有什么需要注意的话, 那就是(38)中所有的$\xi_n$都定义在同一个概率空间上, 以至于$S_{n+1}(\omega) = S_{n}(\omega)+\xi_{n+1}(\omega)$.

正如我们所注意到的那样, Borel大数律的证明之所以简单, 在于$S_n\sim\mathcal{B}(n,p)$, 因此, 它的四阶矩存在, 并且$\mathrm{E}\abs{S_n-np}^4 = o(n^2)$. 能否将辛钦(Хи́нчин)大数律加强为$\mathrm{a.s.}$收敛么?柯尔莫哥洛夫(Колмого́ров)强大数律肯定地回答了这个问题.

柯尔莫哥洛夫(Колмого́ров)是20世纪最伟大的数学家之一,也是现代概率论的奠基人.1920年,他进入莫斯科国立大学学习,1929年获得博士学位.博士期间他完成了多篇论文,其中最具代表性的工作有: 强大数律、三级数定理, 以及重对数律.

柯尔莫哥洛夫(Колмого́ров)强大数律:假设$\{\xi_n;n\geqslant 1\}$为独立同分布的随机序列,令$S_n =\sum_{k=1}^n\xi_k$,那么\begin{equation}
\lim_{n\to\infty}\frac{S_n}{n} = \mu,\mathrm{a.s.}
\end{equation}
当且仅当$\mathrm{E}\abs{\xi_1}<\infty,\mathrm{E}\xi_k = \mu$.

条件的必要性是Borel-Cantelli引理的简单推论; 但充分性的证明要复杂得多. 为此, 柯尔莫哥洛夫(Колмого́ров)
创造了许多新的方法, 包括子序列方法和独立随机变量部分和的最大值不等式.

1929年, 柯尔莫哥洛夫(Колмого́ров)证明了著名的有界重对数律:
假设$\{\xi_n;n\geqslant 1\}$为一独立随机变量序列. $\mathrm{E}\xi_n = 0,\mathrm{var}(\xi_n) = \sigma^2_n<\infty$. 令$S_n = \sum_{k=1}^n\xi_k$, $B_n^2 = \sum_{k=1}^n\sigma_k^2\to\infty$. 如果$\abs{\xi}\leqslant M_n = o(\frac{B_n}{\sqrt{\ln\ln B_n^2}}),\mathrm{a.s.}$, 那么\begin{equation}
\limsup_{n\to\infty}\frac{\abs{S_n}}{\sqrt{2B_n^2\ln\ln B_n^2}} = 1,\mathrm{a.s.}
\end{equation}
这个定理的意义是多方面的. 它是以一种完全不同于大数律和中心极限定理的形式刻画了独立随机变量和的渐进性质. 它将Borel-Cantelli引理用到了极致,还创建了指数型不等式.

对于独立随机变量序列$\{\xi_n;n\geqslant 1\}$,\begin{equation}
\limsup_{n\to\infty}\frac{\abs{S_n}}{\sqrt{2n\ln\ln B_n^2}} = \sigma,\mathrm{a.s.}
\end{equation}
当且仅当$\mathrm{E}\xi_k = 0,\mathrm{E}\xi_k^2 = \sigma^2<\infty$.

令人惊讶的是, 该定理直到1941年才由Hartman-Wintner证明.

19世纪末、20世纪初,整个数学正在经历着一场革命. Lebesgue测度论、Poincaré的拓扑学、Hilbert的23个问题, 都给20世纪的数学家留下了巨大的发展空间. 概率论学科经过了200多年的孕育后, 于20世纪初迎来了发展的黄金时期. 柯尔莫哥洛夫(Колмого́ров)于1933年出版的著作《Foundations of the Theory of Probability》标志着现代概率论的开始.此书共分四章,主要内容包括
一、构建概率论的公理化体系;二、发展条件概率和条件期望;三、给出无穷维分布的相容性条件;四、证明独立随机变量和的极限定理. 它们为后来整个概率论学科的发展奠定了基础.

正如大家注意到的那样, 无论大数律、中心极限定理, 还是重对数律, 讨论的都是收敛性的问题. 以Lévy-Feller定理为例, 假设$\{\xi_n;n\geqslant 1\}$独立同分布, $\mathrm{E}\xi_n = 0$,$\mathrm{var}(\xi_n) = 1$, 那么对每个$x$,\begin{equation}
P\left( \omega:\frac{S_n}{\sqrt{n}}\leqslant x \right)\to\Phi(x), (n\to\infty).
\end{equation}
由于$\Phi(x)$是单调递增的连续函数, 所以上述收敛一致成立, 即\begin{equation}
\Delta_n\triangleq \sup_{-\infty<x<\infty}\abs{P\left( \omega:\frac{S_n}{\sqrt{n}}\leqslant x \right)-\Phi(x)}\to 0,(n\to\infty).
\end{equation}
一个自然的问题是:$\Delta_n$趋于0的速度如何? 这不仅仅是个理论问题, 而且在数理统计中有着重要应用. Berry-Esseen给出了下列结果: 假设$\xi_k$,$1\leqslant k\leqslant n$独立同分布, $\mathrm{E}\xi_k = 0$, $\mathrm{var}(\xi_k)) = 1$, $\mathrm{E}\abs{\xi_k}^3<\infty$, 那么存在一个数值常数$A>0$,使\begin{equation}
\Delta_n\leqslant A\frac{\mathrm{E}\abs{\xi_1}^3}{\sqrt{n}}
\end{equation}
对于独立不同分布情形,类似结果成立:
\begin{equation}
\sup_{-\infty<x<\infty}\abs{P\left( \omega:\frac{S_n-\mathrm{E}S_n}{B_n}\leqslant x \right)-\Phi(x)}\leqslant A\frac{\sum_{k=1}^n\mathrm{E}\abs{\xi_k}^3}{B_n^3}.
\end{equation}
注意, (45)和(46)对任意$n\geqslant 1$都成立. 有兴趣的是, 这个定理中, 如果不对$\xi_k$的分布加以假设, (45)中的上界的阶是不能再改进了的. 例如,如果$P(\xi_n = \pm 1)=1/2)$, 那么$P(S_n = 0) \sim n^{-1/2}$. 但是对于有界对称连续型随机变量, (45)中上界的阶可以改进到$n^{-1}$.

根据(45),\begin{equation}
P(\omega:\frac{S_n(\omega)}{\sqrt{n}}\leqslant x) = \Phi(x)+O(n^{-1/2}).
\end{equation}
类似地\begin{equation}
P(\omega:\frac{S_n(\omega)}{\sqrt{n}}> x) = 1-\Phi(x)+O(n^{-1/2}).
\end{equation}
这些结果对统计推断中置信区间估计和假设检验都非常有用. 但是, 当$x$比较大时, $1-\Phi(x)$本身就很小, 有可能远比$n^{-1/2}$小. 例如, 保险精算中破产概率及其风险的估计中就可能出现这种问题. 这样, 用(48)来估计$P(\omega:S_n>\sqrt{n}x)$就当然不准确了. Cramér证明了\begin{equation}
\frac{P(\omega:S_n>\sqrt{n}x)}{1-\Phi(x)} = (1+o(1))\exp(\frac{x^3}{\sqrt{n}}\lambda(\frac{x}{\sqrt{n}})),
\end{equation}
其中$x=o(\sqrt{n})$, $\lambda(\cdot)$为Cramér级数. 称(49)为Cramér型大偏差, 用于描述小概率事件的渐进性质. 20世纪60-70年代, Donsker, Varadhan等进一步考虑了多维随机变量和随机过程的大偏差. 大偏差理论现在已经成为了概率极限理论的一个重要分支.

为了精确刻画大数律的收敛性, 许宝騄和Robbins在1947年证明了下列完全收敛性: 假设$\{\xi_n;n\geqslant 1\}$是一列独立同分布的随机变量, $\mathrm{E}\xi_1 = 0$, $\mathrm{E}\xi_1^2<\infty$, 那么对任意$\varepsilon>0$,\begin{equation}
\sum_{n=1}^{+\infty}P\left( \omega:\abs{\frac{S_n(\omega)}{n}}>\varepsilon \right)<\infty.
\end{equation}
显然,从上式可推出强大数律成立, 从而$\mathrm{E}\abs{\xi_1}<\infty$并且$\mathrm{E}\xi_1 = 0$. 但是, 方差的存在性并不明显. 事实上, Erdős在1950年证明了方差存在有限是(50)成立的必要条件. 而Baum-Katz在1968年证明了\begin{equation}
\sum_{n=1}^{+\infty}\frac{1}{n}P\left( \omega:\abs{\frac{S_n(\omega)}{n}}>\varepsilon \right)<\infty
\end{equation}
当且仅当$\mathrm{E}\abs{\xi_1}<\infty$并且$\mathrm{E}\xi_1 = 0$.

随后, 在上世纪70-80年代, 有大量文献作着关于各种各样的完全收敛性的讨论. 其中一个非常有意思的问题是: (50)的左边究竟有多大? 它是如何以来$\varepsilon>0$的? Hedey在1980年考虑了这个问题并证明了下列结论: 假设$\{\xi_n;n\geqslant 1\}$是个独立同分布的随机序列, $\mathrm{E}\xi_1=0$, $\mathrm{E}\xi_1^2 = \sigma^2<\infty$, 那么
\begin{equation}
\lim_{\varepsilon\to 0}\varepsilon^2\sum_{n=1}^{+\infty}P\left( \omega:\abs{\frac{S_n(\omega)}{n}}>\varepsilon \right) = \frac{\sigma^2}{2}.
\end{equation}
其证明利用了中心极限定理以及正态分布的尾概率估计. 当然, 可以进一步讨论其它类似的问题. 现在, 文献中称这类问题为精确渐进性.

在20世纪，随机过程理论（马尔可夫(Марков)过程，平稳过程,Martingales（鞅论）,随机过程的极限定理等）得到了快速的发展。另外，还有许多分支，比如（排名不分先后）随机微分方程、随机偏微分方程、倒向随机微分方程、随机微分几何、Malliavin变分、白噪声分析、狄氏型理论、遍历理论、数理金大偏差理论、交互粒子系统、测度值过程、概率不等式、泛函不等式、渗流、最有传输、SLE、随机矩阵、随机优化、随机控制、随机动力系统等众多概率论、随机分析及相关领域中的分支得到了快速的发展。

随机过程的迅猛发展是概率论学科乃至整个数学在20世纪取得的最大成就之一. Wiener过程、Guass过程、Марков过程、Lévy过程、鞅(martingales)等都是概率论学家最为熟悉的概念. 在这些过程的研究中, 有关独立随机变量序列的部分和的各种经典概率极限定理得到了广泛的应用和推广. 著名的结果包括Колмого́ров-Smirnov定理、Donsker弱不变原理和Skorohod强不变原理.

在数理统计中, 总体分布$F(x)$往往并不知道; 人们通常用经验分布$F_n(x)$做统计推断. 对每个固定的$x$, 经典的大数律和中心极限定理表明: $F_n(x)\to F(x),\mathrm{a.s.}$并且, $\sqrt{n}(F_n(x)-F(x))\stackrel{d}{\rightarrow}\mathcal{N}(0,F(x)(1-F(x)))$. 但逐点收敛并不能很好地描述概率分布$F(x)$的整体性质, 人们需要一致收敛性. Гливе́нко(Glivenko)-Cantelli定理证明了$\sup_x\abs{F_n(x)-F(x)}\to 0,\mathrm{a.s.}$; 进而, Колмого́ров和Smirnov给出了其渐进分布. 具体地说, $(F_n(x)-F(x),-\infty<x<\infty)$作为随机过程序列依分布收敛到Brown桥, 并且\begin{equation}
\lim_{n\to\infty}P\left( \sup_{-\infty<x<\infty}\sqrt{n}(F_n(x)-F(x))>t \right) = \mathrm{e}^{-2t^2}
\end{equation}
和\begin{equation}
\lim_{n\to\infty}P\left( \sup_{-\infty<x<\infty}\sqrt{n}\abs{F_n(x)-F(x)}>t \right) = 2\sum_{k = 1}^{+\infty}(-1)^{k-1}\mathrm{e}^{-2k^2t^2}.
\end{equation}
这些结果可以用来检验总体分布$F(x)$. 因此, 通常称$\sqrt{n}\abs{F_n(x)-F(x)}$为Колмого́ров-Smirnov检验统计量.

总所周知, 经典随机游走(随机徘徊)和随机过程有着简单且自然的联系. 假设$\{\xi_n;n\geqslant 1\}$是一列独立同分布的随机变量, $P(\xi_n=\pm 1) = 1/2$. 令$S_0 = 0$, $S_n = \sum_{j=1}^n\xi_j$, 那么$(S_0,S_1,S_2,\cdots)$构成一个随机过程. 事实上, 它是Марков过程、独立增量过程, 还是鞅. 它成为了研究随机过程各种性质的基本例子. 如果在时间-位置坐标系中描点, 便得到随机游走的轨迹. 如果限于前$n$个时刻, 那么获得$2^n$条不同的轨迹, 每条轨迹出现的概率均是$1/2^n$.  如果把相邻的点连起来, 便得到连续的轨迹. 定义部分和过程
\begin{equation}
X_n(t) = \frac{1}{\sqrt{n}}\sum_{j = 1}^{\lfloor nt\rfloor}\xi_j + \frac{nt-\lfloor nt\rfloor}{\sqrt{n}}\xi_{\lfloor nt\rfloor+1},~0\leqslant t\leqslant 1.
\end{equation}
显然, 根据Feller-Lévy中心极限定理知道, 对每个$t$成立$X_n(t)\to \mathcal{N}(0,t)$. 进而, 作为随机过程来说, $(X_n(t),0\leqslant t\leqslant 1)$依分布收敛. 特别, Donsker证明了下列结果
\begin{equation}
X_n\Rightarrow W,~n\to\infty,
\end{equation}
其中, $W = (W(t),0\leqslant t\leqslant 1)$为标准Wiener过程. 正如
中心极限那样, 这一结果不仅仅对简单随机游动成立, 而且可以推广到一般的随机变量序列, 并成为Donsker不变原理. 它的重要性体现在两方面:(1)证明了Brown运动的存在性; (2)结合依分布收敛的连续性, 得到了随机序列部分和产生的各种统计量的极限定理和渐进分布, 从而在数理统计、计量经济、金融数学等学科中有广泛应用.

上述Колмого́ров-Smirnov定理和Donsker不变原理成为了研究一般拓扑空间和距离空间上概率测度弱收敛的基本例子和主要动机. 根本样本轨迹的正则性和有界性, 可以把随机过程看成某个函数空间上的随机元(r.e.). 例如, 部分和过程可以看成$C([0,1])$上的随机元, 经验过程可以看作$D([0,1])$空间上的随机元. 前者赋有一致拓扑, 后者赋有Skorohod拓扑. 距离空间上的概率测度弱收敛定义如下:

假设$(S,\rho)$为距离空间, $P,P_n, n\geqslant 1$为$S$上的一列概率测度, 如果对每一有界连续函数$f$,
\begin{equation}
\int_Sf(s)\mathrm{d}P_n\to\int_Sf(s)\mathrm{d}P,~(n\to\infty),
\end{equation}
那么称$P_n$弱收敛到$P$, 记作$P_n\Rightarrow P$. 这一概念是分布函数弱收敛的推广. 一个自然的问题是, 如何判别概率测度弱收敛呢? 通常分两步:(1)概率测度序列弱相对紧, (2)所有子序列的极限测度都相同. Prohorov定理对于验证概率测度序列弱相对紧起着重要作用. 假设$\Pi$是$S$上一族概率测度, 如果对任意$\varepsilon>0$, 存在一个紧子集$K$, 使得\begin{equation}
\sup_{P\in\Pi}P(K^c)<\varepsilon,
\end{equation}
则称$\Pi$是一致胎紧的(uniformly tight). Prohorov定理给出概率测度族弱相对紧的充分条件: 如果$\Pi$是一致胎紧的, 那么$\Pi$是弱相对紧的. 其实, 在可分完备距离空间上, 弱相对紧的概率测度族是一致胎紧的. 该定理的兴趣在于: 它将概率测度族的弱收敛性和距离空间的紧致子集的刻画联系起来. 有了Prohorov定理, 不同距离空间上的概率测度弱收敛有着各具特色的判别法则.

自1960年以来, Hilbert空间值和Banach空间值随机变量的概率极限理论逐渐发展起来. 许多实数值随机变量的极限定理都被推广到Banach空间值随机变量的情形, 并获得新的结果. 特别有趣的结果是概率极限理论可以研究Banach空间的局部几何结构, 例如$p$-型和$q$-余型空间. 为了研究Banach空间值随机变量的概率极限定理, 人们建立了许多新型的概率不等式, 如Hoffman-Jörgensen不等式, Rosenthal矩不等式, Talagrand等周不等式. 这些不等式甚至对实值随机变量的研究都有巨大的帮助. 1991年, 由Ledoux和Talagrand编著的《Probability in Banach Spaces》总结了90年代以前的主要研究成果, 是Banach空间上概率论的经典著作.

1970年代, 匈牙利Major等学者利用Skorohod嵌入定理, 建立了与弱不变原理(56)相应的强不变原理: 假设$\{\xi_n;n\geqslant 1\}$是概率空间$(\Omega,\mathscr{F},P)$上的一列独立同分布的随机变量, $\mathrm{E}\xi_1= 0$, $\mathrm{E}\xi_1^2 = 1$. 记$S_n$是其部分和, 那么可以构造一个新的概率空间$(\tilde{\Omega},\tilde{\mathscr{F}},\tilde{P})$, 在其上存在一个Wiener过程$W$和一列独立同分布的随机变量序列$\{ \tilde{\xi}_n;n\geqslant 1 \}$,使得$\{\tilde{S}_n\}$和$\{S_n\}$同分布, 且\begin{equation}
\lim_{n\to\infty}\frac{\abs{\tilde{S}_n-W(n)}}{\sqrt{n\ln\ln n}}\to 0 ,\mathrm{a.s.}
\end{equation}
随机过程的样本轨道性质的研究自1930年开始.Lévy在1937年首先讨论了Brown运动样本曲线的连续大小, 并证明\begin{equation}
\limsup_{\delta\to 0}\sup_{0\leqslant t_2-t_1\leqslant \delta}\frac{W(t_2)-W(t_1)}{\sqrt{-2\delta\ln\delta}} = 1,\mathrm{a.s.},
\end{equation}
其中,$W = (W(t),t\geqslant 0)$是标准Brown运动. 该结果精确地刻画了Wiener过程样本曲线的不正则性. 后来, 有关Wiener过程和Guass过程样本曲线的连续模大小成为了一个当时的热门课题, 吸引了许多的概率论学者的关注. 特别, 以Csrögö和Révesz为代表的匈牙利学派在该领域做了大量工作, 完整且清晰地刻画了一大类Guass过程的样本曲线性质.
